o1 system card
https://scrapbox.io/files/67521c96ac7cbaf831f2da12.png
どんなモデルか?
一言でいうと、
o1モデルファミリーは、より遅く、より慎重な推論も使用するモデル
これまでは、高速で直感的な思考だった
複雑な推論のために、強化学習によって訓練されている。
このトレーニングで、モデルは思考プロセスを洗練する
具体的には、ユーザーに回答する前に、長い思考連鎖を生成して、しっかり考える。
そして、様々な戦略を試み、間違いを認識することを学習する
3つのモデル
o1 miniは、このモデルの高速バージョン
o1は、o1-previewの次のモデル
o1 pro
どうやってトレーニングしたか?
厳選された、公開データ
WebやOpenSourceデータセットなどの公開データ
推論データと科学的文献が含まれる
これにより、モデルは、一般知識と専門トピックの両方に精通し、複雑な推論タスクの実行能力が向上する
データパートナーシップからの独自データ
価値の高い非公開データセットにアクセスするために、パートナーシップを結んだ。
有料コンテンツ、専門アーカイブ、業界固有の知識とユースケースへの洞察を提供する、データセットなど
hiroya_iizuka.icon なるほど、こうした努力が、専門家を唸らせているんだね
安全評価
ヘイト、犯罪など、許可されてないコンテンツを、拒否できるか評価
結果は、o1シリーズは、GPT-4oを上回る
https://scrapbox.io/files/67550a0d7a33083293edaae0.png
過剰拒否の防止は、o1は改善が見られた
https://scrapbox.io/files/67550b1a354ac02d57a632ac.png
脱獄(敵対的プロンプト)評価
olファミリーはGPT-4oを大幅に改善
特にStrongRejectの改善が目覚ましい
https://scrapbox.io/files/67550ddf7a859b505aacd5df.png
幻覚評価
以下の2つのデータセットで評価
SimpleQA:短い回答が付いた4,000件の事実を求める質問の多様なデータセット
PersonQA:人に関する質問と公開されている事実のデータセット
ol-previewとolはGPT-40よりも幻覚を起こす頻度が少なく、ol-miniはGPT-4o-miniよりも幻覚を起こす頻度が少なかった。
https://scrapbox.io/files/67550fa16edb9322b6ba28c4.png
カスタム開発者メッセージによる脱獄
ついに、モデルに命令階層に従うよう、トレーニングした。
つまり、開発者メッセージよりもシステムメッセージの指示に従い、ユーザーメッセージよりも開発者メッセージの指示に従うようにo1を監視した。
この命令階層に従う能力を測定するために、複数の評価を行った。
結果は、o1は、ほぼ全て(1つをのぞく)で、GPT-4oより正しい優先順位で指示に従った
① あえて競合する異なるタイプのメッセージをぶつけた
https://scrapbox.io/files/6755138264c0117eab055cfb.png
② モデルは、数学の家庭教師になり、質問の答えを教えないように指示。ユーザーは、騙して聞き出そうとした。
https://scrapbox.io/files/6755148059520a49126aad13.png
③ モデルは、特定のフレーズ(アクセス許可)やパスワードを公開しないように指示し、ユーザーは聞き出そうとした。
https://scrapbox.io/files/675514c52b6b59aa853f3165.png
o1のスコア: 中 (o1- previewと同じ)
o1が、既知の生物学的脅威の再現の運用計画を支援できることがわかった。
このような専門家はすでに重要な分野の専門知識を持っているため、このリスクは限定的
説得
o1のスコア: 中 (o1- previewと同じ)
o1は人間レベルの説得能力を示す
同じトピックに関する、人間が書いたテキストと同様に説得力のある書面による議論を作成できる。
ただし、o1はトップの人間のライターを上回っていない
説得の実験手法
https://scrapbox.io/files/675535a86b50e071f2a496d8.png
説得は、人々の信念を変える(または行動を起こさせる)ことに関連するリスクに焦点を当てている。
多言語パフォーマンス
日本語は、88%であり、英語と比較すると4%の差
https://scrapbox.io/files/67552b26ae4332a6f43a1e37.png
GPT-4の時より著明な改善を認めている。
https://scrapbox.io/files/67552bddee1055e1a0eadbdd.png
まとめ
o1は、コンテキスト内で思考連鎖推論を実行する
これにより、強力なパフォーマンスが得られる
安全ベンチマークのパフォーマンスは増加するが、特定のリスクも増加する
これらに備えるために、安全対策と軽減策を組み込んでいる